מגמת "גילוי ואיתור מידע דיגיטלי" מידענות סייבר השתלמות מורים מובילים אפריל 2016 פרק: התמודדות עם שפה זרה
מבוא - בלשנות חישובית ועיבוד שפה טבעית מבוא לתרגום ממוכן הטכנולוגיה שמאחורי התרגום הממוכן תרגום ממוכן כצוהר למידע בשפות זרות תרגול
ענף בין-תחומי, אשר מתבסס הן על הבלשנות כמו מדעי המחשב, סטטיסטיקה ומתמטיקה בלשנות חישובית. תחומים על והן תיאורטית הבלשנות החישובית התיאורטית עוסקת בקיבוץ מגוון של המאפיינים ותחומי הידע שצריך להכיר מנת על לדעת שפה מסוימת, תוך שימוש בעקרונות מנחים מתחום הבינה המלאכותית. מעשית NLP הבלשנות החישובית המעשית גם נקראת Processing( )Natural Language ונחשבת לתת-ענף הבינה של המלאכותית. במסגרת זה תחום מפותחות טכנולוגיות חדשות אשר "מטפלות" בשפה האנושית במגוון דרכים, ויכולות לנו לסייע בחיי היום-יום ולגרום למחשבים "להבין" שפה אנושית.
בלשנות חישובית מעשית נסו לחשוב באילו תוצרים של הבלשנות החישובית המעשית אנו נתקלים במהלך היומיום? אילו טכנולוגיות המשלבות עיבוד של שפה טבעית )שפה דבורה( מוכרות לנו?
בלשנות חישובית מעשית תרגום ממוכן *** סיכום ותמצות של טקסטים *** הגייה של טקסטים כתובים )Text to Speech( *** קליטה של מילים שנאמרות בקול והעלאתן על הכתב )Speech to Text( *** מענה אוטומטי על שאלות
תרגום ממוכן כצוהר למידע בשפות זרות מיתרונות התרגום הממוכן: גישה בלתי אמצעית לחומרי גלם בשפות זרות *** שבירת חומות ומחיצות בתחום השפה *** בניית גשרים שפתיים וערוצי תקשורות חדשים *** יכולת לגלות ולאתר מידע בכל שפה, למטרות מחקר ***
מרבית מנועי התרגום כיום הם מנועי תרגום סטטיסטיים שמתבססים על סטטיסטיקות שונות על מנת לבחור את הצעות התרגום הטובות ביותר התרגום האוטומטי מבוסס על למידת מכונה המנוע מקבל אסופה ענקית של טקסטים מתורגמים, ומחלץ מהם נתונים סטטיסטיים שמאפשרים לקבל החלטות תרגומיות מושכלות
לפני שנתייחס לטכנולוגיה, חשוב ליישר קו: שפת המקור השפה שמתרגמים ממנה שפת היעד השפה שמתרגמים אליה
נתייחס לשלוש רמות של תרגום אוטומטי:
תרגום מילה במילה מה עושים כשנתקלים במילה שלא מכירים? - מחפשים במילון -
תרגום מילה במילה על אותו העיקרון בדיוק מבוסס תרגום מילה במילה מנוע התרגום פונה גדול למילון ומתרגם כל מילה בטקסט בפני עצמה... לחשוב נסו קשים אילו עשויים להיווצר כשמתרגמים מילה במילה?
קשיים דקדוקיים ותחביריים תרגום מילה במילה אם נתרגם את המשפט הבא מאנגלית לעברית: I didn t read the book הספר לא קראתי אני לראות נוכל שהרעיון המרכזי שעומד מאחורי הפלט שהתקבל אולם לנו, ברור אמנם המשפט המתורגם אינו עומד בכללי התחביר של שפת היעד.
קשיים הנובעים ממילים דו-משמעיות תרגום מילה במילה למילה הבאה יש שתי משמעויות בעברית: ק ל ס
קשיים הנובעים ממילים דו-משמעיות תרגום מילה במילה למילה הבאה יש שתי משמעויות בעברית: משמעות א' לעג וחרפה ק ל ס משמעות ב' - שבח ותהילה - אם נשתמש בתרגום מילה במילה כדי לתרגם משפט שמכיל את המילה "קלס", סביר שנקבל רשימה של כל התרגומים האפשריים למילה, ונאלץ לבחור את התרגום הרלוונטי. להניח
קשיים הנובעים ממילים דו-משמעיות תרגום מילה במילה אם נזין למנוע תרגום שמתרגם מילה במילה את המשפט הבא: The democratic party of the USA. סביר שנקבל את התרגום: המסיבה/החגיגה/המפלגה הדמוקרטית של ארצות הברית. האם מדובר במפלגה הדמוקרטית? למה התכוון המשורר? או שמא הכוונה ליום חג לדמוקרטיה?
קשיים הנובעים מהקשר המילה במשפט תרגום מילה במילה כל הקשיים בהם עסקנו קשורים בסוגייה אחת מרכזית: תרגום מילה במילה לא מתייחס להקשר המילה במשפט
קשיים הנובעים מהקשר המילה במשפט תרגום מילה במילה כך למשל ניתן לתרגם את המילה "כסף" לאנגלית בשתי דרכים לפחות: Money Silver
קשיים הנובעים מהקשר המילה במשפט תרגום מילה במילה ההקשר של המילה "כסף" משפיע על תרגומה: Silver Money השרשרת הזו עשויה כסף ומשובצת יהלומים. מיד לאחר פריצתו של השודד לבנק, צעק על הקופאית: תני לי את הכסף! כיצד מנוע התרגום הממוכן יכול להבין מתוך הקשר? איך ניתן לבחור את הצעת התרגום באופן אוטומטי?
מודל תרגום מודל התרגום בוחר את הצעת התרגום הטובה ביותר על ידי חישוב ההסתברות לפיה מילה מסוימת או ביטוי מסוים בשפה אחת יתורגמו למילה שנייה בשפה שנייה. מודל תרגום הסטטיסטיקה של מודל התרגום מחושבת על ידי מעבר על אסופה גדולה מאוד של טקסטים, שנקראת "קורפוס מקבילי".
מודל תרגום הקורפוס המקבילי מחולק למקטעים קטנים שעל בסיסם נבנית הסטטיסטיקה: השרשרת הזו עשויה כסף ומשובצת יהלומים. לאחר החלוקה למקטעים, המודל מסיק כי במרבית המקרים שבהם המילה "כסף" מגיעה בסמיכות למילים כמו "שרשרת", "יהלומים" ו"משובצת" היא תתורגם לאנגלית כ-" Silver ". This necklace is made of silver and set with diamonds.
מודל שפה לעומת השפה, מודל מילה לפיה להסתברות בשפת היעד. מודל התרגום, מתייחס או ביטוי מסוימים יופיעו מודל היעד, זה מבוסס על אסופה של טקסטים בשפת ומשפיע על הקוהרנטיות של הפלט המתקבל.
מודל שפה אם נבקש לתרגם מאנגלית לעברית את הצירוף עשויות להתקבל ארבע אפשריות תרגום שונות:,"Good boy" שפת המקור שפת היעד ילד טוב ילד טובים ילד טובה ילד טובות Good boy מודל השפה בוחן שכיחות של רצפים בשפת היעד. מכיוון שבעברית הצירוף השכיח ביותר מבין ארבע האפשריות, סביר שהצירוף יתורגם כהלכה. "ילד טוב" הוא הצירוף
כשלים תרגומיים מכיוון שמנועי תרגום ממוכן מבוססים על סטטיסטיקה ועל בינה מלאכותית, לעיתים נתקל בכשלים תרגומים, שעושיים להשפיע על היכולת להבין את המשפט המקורי. נסו לשער: באילו מקרים עשוי מנוע התרגום להתקשות בתרגום?
כשלים תרגומיים מכיוון שמנועי תרגום ממוכן מבוססים על סטטיסטיקה ועל בינה מלאכותית, לעיתים נתקל בכשלים תרגומים, שעשויים להשפיע על היכולת להבין את המשפט המקורי. מקרים בהם מנוע התרגום מתקשה: ביטויים ופתגמים צירופי מילים בשפת המקור שתרגומם )המילולי( לשפת היעד יהיה חסר משמעות. משלבים בשפה התמודדות עם סלנג ועם שפה מדוברת-כתובה, הנפוצה בפורומים ובדוא"ל. תחביר התמודדות עם מבנים תחביריים סבוכים ודו-משמעיים.
כיצד Google Translate עובד?
תרגול לפניכם מספר משפטים שתורגמו מעברית לאנגלית על ידי.Google Translate נסו לשחזר את הפתגם העברי שעומד מאחורי כל אחד מן התרגומים: No baker's own horn The shoemaker goes barefoot Third time ice cream Words of the wise are heard in comfort Do not boast wear as a key On top of a burning hat thief Pretty wise silence It is best dog friend dog author אין הנחתום מעיד על עיסתו הסנדלר הולך יחף פעם שלישית גלידה דברי חכמים בנחת נשמעים אל יתהלל חוגר כמפתח על ראש הגנב בוער הכובע השתיקה יפה לחכמים עדיף כלב חבר מחבר כלב נתחו כל אחד מן התרגומים. ממה נובע הקושי התרגומי?
תרגול בדיקת פתגם אחד לדוגמה נביט בפתגם: אל יתהלל חוגר כמפתח Do not boast wear as a key פתגם זה מדגים שני קשיים לשוניים הקשורים לתרגום הממוכן: קושי בתרגום פתגמים )מתקבל תרגום מילולי המפספס את המשמעות המקורית(. קושי סמנטי מכיוון שהתרגום הוא סטטיסטי, מתקבל תרגום מוטעה של חלק מהמילים. כך למשל במקרה של המילה "מפתח": בעוד שבפתגם מוזכרת המילה מ פ ת ח )כינוי לאיש צבא החוזר משדה הקרב ומ ת יר את נשקו( המנוע מתייחס למילה )השכיחה יותר( מ פ ת ח.)key(